智能论文笔记

NeurIPS'22 Cross-Domain MetaDL competition: Design and baseline results

Dustin Carrión-Ojeda , Hong Chen , Adrian El Baz , Sergio Escalera , Chaoyu Guan , Isabelle Guyon , Ihsan Ullah , Xin Wang , Wenwu Zhu

分类：机器学习 | 人工智能 | 计算机视觉 | 神经与进化计算

2022-08-31

我们介绍了在Neurips'22接受的Chalearn Meta学习系列中的新挑战的设计和基线结果，重点是“跨域”元学习。元学习旨在利用从以前的任务中获得的经验，以有效地解决新任务（即具有更好的性能，较少的培训数据和/或适度的计算资源）。尽管该系列中的先前挑战集中在域内几乎没有学习问题，但目的是有效地学习n-way K-shot任务（即N级培训示例的N班级分类问题），这项竞赛挑战了参与者的解决方案。从各种领域（医疗保健，生态学，生物学，制造业等）提出的“任何通道”和“任何镜头”问题，他们是为了人道主义和社会影响而被选为。为此，我们创建了Meta-Album，这是来自10个域的40个图像分类数据集的元数据，从中，我们从中以任何数量的“方式”（在2-20范围内）和任何数量的“镜头”来解释任务”（在1-20范围内）。竞争是由代码提交的，在Codalab挑战平台上进行了完全盲目测试。获奖者的代码将是开源的，从而使自动化机器学习解决方案的部署可以在几个域中进行几次图像分类。

translated by 谷歌翻译

HTML版本

Combining Machine Learning and Effective Feature Selection for Real-time Stock Trading in Variable Time-frames

A. K. M. Amanat Ullah , Fahim Imtiaz , Miftah Uddin Md Ihsan , Md. Golam Rabiul Alam , Mahbub Majumdar

分类：机器学习

2021-07-28

股票市场的不可预测性和波动性使得使用任何广义计划赚取可观的利润具有挑战性。许多先前的研究尝试了不同的技术来建立机器学习模型，这可以通过进行实时交易来在美国股票市场赚取可观的利润。但是，很少有研究重点是在特定交易期找到最佳功能的重要性。我们的顶级方法使用该性能将功能从总共148缩小到大约30。此外，在每次训练我们的机器学习模型之前，都会动态选择前25个功能。它与四个分类器一起使用合奏学习：高斯天真贝叶斯，决策树，带L1正则化的逻辑回归和随机梯度下降，以决定是长时间还是短的特定股票。我们的最佳模型在2011年7月至2019年1月之间进行的每日交易，可获得54.35％的利润。最后，我们的工作表明，加权分类器的混合物的表现要比任何在股票市场做出交易决策的个人预测指标更好。

translated by 谷歌翻译

A New Deep Boosted CNN and Ensemble Learning based IoT Malware Detection

Saddam Hussain Khan , Wasi Ullah

分类：计算机视觉 | 人工智能

2022-12-15

Security issues are threatened in various types of networks, especially in the Internet of Things (IoT) environment that requires early detection. IoT is the network of real-time devices like home automation systems and can be controlled by open-source android devices, which can be an open ground for attackers. Attackers can access the network, initiate a different kind of security breach, and compromises network control. Therefore, timely detecting the increasing number of sophisticated malware attacks is the challenge to ensure the credibility of network protection. In this regard, we have developed a new malware detection framework, Deep Squeezed-Boosted and Ensemble Learning (DSBEL), comprised of novel Squeezed-Boosted Boundary-Region Split-Transform-Merge (SB-BR-STM) CNN and ensemble learning. The proposed S.T.M. block employs multi-path dilated convolutional, Boundary, and regional operations to capture the homogenous and heterogeneous global malicious patterns. Moreover, diverse feature maps are achieved using transfer learning and multi-path-based squeezing and boosting at initial and final levels to learn minute pattern variations. Finally, the boosted discriminative features are extracted from the developed deep SB-BR-STM CNN and provided to the ensemble classifiers (SVM, M.L.P., and AdaboostM1) to improve the hybrid learning generalization. The performance analysis of the proposed DSBEL framework and SB-BR-STM CNN against the existing techniques have been evaluated by the IOT_Malware dataset on standard performance measures. Evaluation results show progressive performance as 98.50% accuracy, 97.12% F1-Score, 91.91% MCC, 95.97 % Recall, and 98.42 % Precision. The proposed malware analysis framework is helpful for the timely detection of malicious activity and suggests future strategies.

translated by 谷歌翻译

Thinking Hallucination for Video Captioning

Nasib Ullah , Partha Pratim Mohanta

分类：计算机视觉

2022-09-28

随着丰富的视觉表示和预训练的语言模型的出现，随着时间的推移，视频字幕持续不断改进。尽管性能有所提高，但视频字幕模型还是容易发生幻觉的。幻觉是指与原始材料分离的高度病理描述的产生。在视频字幕中，有两种幻觉：物体和动作幻觉。我们没有努力学习视频的更好代表，而是在这项工作中研究了幻觉问题的基本来源。我们确定了三个主要因素：（i）从预训练模型中提取的视觉特征不足，（ii）多模式融合过程中源和目标环境的影响不当，以及（iii）训练策略中的暴露偏见。为了减轻这些问题，我们提出了两种强大的解决方案：（a）在提取的视觉特征的基础上引入了在多标签设置中训练的辅助头，以及（b）添加上下文门，在融合过程中动态选择特征。视频字幕的标准评估指标衡量与地面真相标题的相似性，并且不能充分捕获对象和动作相关性。为此，我们提出了一个新的指标Coaha（标题对象和动作幻觉评估），该指标评估了幻觉的程度。我们的方法可以在MSR-Video到文本（MSR-VTT）和Microsoft研究视频描述语料库（MSVD）数据集上实现最先进的性能，尤其是通过大量的苹果酒得分。

translated by 谷歌翻译

Energy Efficient Automatic Streetlight Controlling System using Semantic Segmentation

Md Sakib Ullah Sourav , Huidong Wang

分类：计算机视觉 | 人工智能

2022-09-18

这项研究旨在开发一种新型的路灯管理系统，该系统由电视电视（CCTV）摄像头安装的计算机视觉技术提供动力，该摄像头允许发光二极管（LED）路灯通过识别行人或车辆的存在，从而自动通过适当的亮度点亮。并在视频中通过语义图像细分在缺席的情况下对路灯进行了颠倒。

translated by 谷歌翻译

Efficient Approximate Kernel Based Spike Sequence Classification

Sarwan Ali , Bikram Sahoo , Muhammad Asad Khan , Alexander Zelikovsky , Imdad Ullah Khan , Murray Patterson

分类：机器学习

2022-09-11

机器学习（ML）模型，例如SVM，用于分类和序列的聚类等任务，需要定义序列对之间的距离/相似性。已经提出了几种方法来计算序列之间的相似性，例如确切的方法计算$ k $ -s-mers（长度$ k $的子序列）之间的匹配数和估计成对相似性得分的近似方法。尽管精确的方法产生了更好的分类性能，但它们的计算成本很高，将其适用性限制在少量序列中。事实证明，近似算法更可扩展，并具有相当的性能（有时更好）确切方法 - 它们以“一般”方式设计用于处理不同类型的序列（例如音乐，蛋白质等）。尽管一般适用性是算法的所需属性，但在所有情况下都不是这种情况。例如，在当前的Covid-19（冠状病毒）大流行中，需要一种可以专门处理冠状病毒的方法。为此，我们提出了一系列方法来提高近似内核的性能（使用最小化和信息增益），以增强其预测性能PM冠状病毒序列。更具体地说，我们使用域知识（使用信息增益计算）和有效的预处理（使用最小值计算）来提高近似内核的质量，以对与不同变体相对应的冠状病毒峰值蛋白序列进行分类（例如，Alpha，Beta，Beta，Gamma）。我们使用不同的分类和聚类算法报告结果，并使用多个评估指标评估其性能。使用两个数据集，我们表明我们提出的方法有助于与医疗保健领域的基线和最先进的方法相比，有助于提高内核的性能。

translated by 谷歌翻译

ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human Activity Recognition in Videos

James Wensel , Hayat Ullah , Arslan Munir , Erik Blasch

分类：计算机视觉

2022-08-16

人类活动识别是计算机视觉中的新出现和重要领域，旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络（CNN）的组合来从数据和复发性神经网络（RNN）中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络：一个经常性变压器（RET），这是一个专门的神经网络，用于对数据序列进行预测，以及视觉变压器（VIT），一种用于提取显着的变压器的变压器（VIT）图像的特征，以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。

translated by 谷歌翻译

Human Activity Recognition Using Cascaded Dual Attention CNN and Bi-Directional GRU Framework

Hayat Ullah , Arslan Munir

分类：计算机视觉 | 人工智能

2022-08-09

基于视觉的人类活动识别已成为视频分析领域的重要研究领域之一。在过去的十年中，已经引入了许多先进的深度学习算法，以识别视频流中复杂的人类行为。这些深度学习算法对人类活动识别任务显示出令人印象深刻的表现。但是，这些新引入的方法仅专注于模型性能或这些模型在计算效率和鲁棒性方面的有效性，从而导致其解决挑战性人类活动识别问题的提议中的偏差折衷。为了克服当代深度学习模型对人类活动识别的局限性，本文提出了一个计算高效但通用的空间级联框架，该框架利用了深层歧视性的空间和时间特征，以识别人类活动的识别。为了有效地表示人类行动，我们提出了有效的双重注意卷积神经网络（CNN）体系结构，该结构利用统一的通道空间注意机制来提取视频框架中以人为中心的显着特征。双通道空间注意力层与卷积层一起学会在具有特征图数量的物体的空间接收场中更加专注。然后将提取的判别显着特征转发到堆叠的双向封闭式复发单元（BI-GRU），以使用前进和后传球梯度学习，以实现长期时间建模和对人类行为的识别。进行了广泛的实验，其中获得的结果表明，与大多数当代动作识别方法相比，所提出的框架的执行时间的改善最高167倍。

translated by 谷歌翻译

STEM image analysis based on deep learning: identification of vacancy defects and polymorphs of ${MoS_2}$

Kihyun Lee , Jinsub Park , Soyeon Choi , Yangjin Lee , Sol Lee , Joowon Jung , Jong-Young Lee , Farman Ullah , Zeeshan Tahir , Yong Soo Kim

分类：计算机视觉

2022-06-09

扫描透射电子显微镜（STEM）是用于多种材料的原子分辨率结构分析的必不可少的工具。 STEM图像的常规分析是一个广泛的动手过程，它限制了高通量数据的有效处理。在这里，我们应用一个完全卷积网络（FCN）来识别二维晶体的重要结构特征。 Resunet是一种FCN的类型，用于识别来自原子分辨率STEM图像的$ {MOS_2} $的硫磺空缺和多晶型物类型。在存在不同水平的噪声，畸变和碳污染的情况下，基于模拟图像的训练来实现有效的模型。 FCN模型对广泛的实验茎图像的准确性与仔细的动手分析相当。我们的工作提供了有关最佳实践的指南，以训练深度学习模型进行STEM图像分析，并证明了FCN有效地处理大量STEM数据的应用。

translated by 谷歌翻译

Towards Representative Subset Selection for Self-Supervised Speech Recognition

Abdul Hameed Azeemi , Ihsan Ayyub Qazi , Agha Ali Raza

分类：机器学习

2022-03-18

自我监督的语音识别模型需要大量标记的培训数据，以学习自动语音识别（ASR）的高保真表示，这是计算要求且耗时的，从而阻碍了这些模型在资源受限环境中的使用。我们考虑确定最佳数据子集以训练ASR的自我监督语音模型的任务。我们表达了一个令人惊讶的观察，即用于采样最有用的示例中使用的数据集修剪策略并没有比随机的子集选择在微调自我监督的ASR任务上更好。然后，我们提出了Cowerage算法，以在自我监督的ASR中更好地子集选择，该算法是基于我们的发现，即确保基于培训单词错误率（WER）在早期训练时期的范围覆盖示例，可以提高概括性能。在WAV2VEC 2.0模型和TIMIT，LibrisPeech和LjSpeech数据集上进行的广泛实验显示了COWERAGE的有效性，比现有数据集修剪方法和随机采样的绝对改善高达17％。我们还证明，培训实例的覆盖范围可确保包括语音多样的示例，从而在自我监督的语音识别模型中更好地测试准确性。

translated by 谷歌翻译